智能论文笔记

培训生成模型捕获数据的丰富语义并解释由此类模型编码的潜在表示，这是无监督学习的非常重要的问题。在这项工作中，我们提供了一种简单的算法，该算法依赖于对预训练的生成自动编码器的潜在代码进行扰动实验，以发现生成模型暗示的因果图。我们利用预训练的属性分类器并执行扰动实验，以检查给定潜在变量对属性子集的影响。鉴于此，我们表明人们可以拟合有效的因果图，该图形在被视为外源变量的潜在代码和被视为观察到的变量的属性之间建模结构方程模型。一个有趣的方面是，单个潜在变量控制属性的多个重叠子集，与试图实现完全独立性的常规方法不同。使用在肽序列数据集上训练的基于RNN的预先训练的生成自动编码器，我们证明了从各种属性和潜在代码之间的算法中学习的因果图可用于预测看不见的序列的特定属性。我们比较了对所有可用属性训练的预测模型，或者仅在Markov毯子中仅培训的模型，并从经验上表明，在无监督和监督的制度中，通常使用依赖Markov blanket属性的预测变量，以确保更好的分布序列。。

translated by 谷歌翻译

Landmark-Aware and Part-based Ensemble Transfer Learning Network for Facial Expression Recognition from Static images

Rohan Wadhawan , Tapan K. Gandhi

分类：计算机视觉 | 机器学习 | 神经与进化计算

2021-04-22

来自静态图像的面部表情识别是计算机视觉应用中的一个具有挑战性的问题。卷积神经网络（CNN），用于各种计算机视觉任务的最先进的方法，在预测具有极端姿势，照明和闭塞条件的面部的表达式中已经有限。为了缓解这个问题，CNN通常伴随着传输，多任务或集合学习等技术，这些技术通常以增加的计算复杂性的成本提供高精度。在这项工作中，我们提出了一种基于零件的集合转移学习网络，其模型通过将面部特征的空间方向模式与特定表达相关来模拟人类如何识别面部表达。它由5个子网络组成，每个子网络从面部地标的五个子集中执行转移学习：眉毛，眼睛，鼻子，嘴巴或颌骨表达分类。我们表明我们所提出的集合网络使用从面部肌肉的电机运动发出的视觉模式来预测表达，并展示从面部地标定位转移到面部表情识别的实用性。我们在CK +，Jaffe和SFew数据集上测试所提出的网络，并且它分别优于CK +和Jaffe数据集的基准，分别为0.51％和5.34％。此外，所提出的集合网络仅包括1.65M的型号参数，确保在培训和实时部署期间的计算效率。我们所提出的集合的Grad-Cam可视化突出了其子网的互补性质，是有效集合网络的关键设计参数。最后，交叉数据集评估结果表明，我们建议的集合具有高泛化能力，使其适合现实世界使用。

translated by 谷歌翻译